Уапдех Cloud 


Консенсус на пальцах, 


или Как договориться в распределенной системе 


Владимир Протасов, Technical Manager, Yandex.Cloud 


А HighLoad+ 
(HL) do ЕЯ 


27” 


Обо мне 


Не писал код 


Пишу код 


Что же будет? 


) 
) 
) 
) 


Никакого хардкора, формул и кода 
Построим алгоритм консенсуса 
Посмотрим, что может пойти не так 


Разберем треидоффы 


Зачем нам консенсус? 


Банк 


Х = 1000 5 


Зачем нам консенсус? 


Х = 1000 $ Х = 100 $ 


Скорость имеет значение 


^ 5 транзакций в секунду 
^ Медианное время транзакции — 10 минут 


^ Транзакция может занимать больше суток 


| А теперь представьте, что столько времени 
| поднимается контейнер в Kubernetes! 


Существующие алгоритмы 


Рахоз 


Byzantine Fault 


най Тоегапсе 


Известные реализации 


| Paxos 


» Chubby, Bigtable, Spanner 
^ Zookeeper 

^ Серп 

» Cassandra 

» YDB 


Raft 


etcd 

Consul 

TiKV 
Hazelcast 
Rethinkdb 
YT 
Clickhouse © 


Все говорят правду 
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Планируем обед 


Знакомимся 


Аня 


Вася 


Галя 


Очередь на регистрацию 
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Решаем, как бы нам вместе пообедать 


ЕКА, А Фа 
9 $ 
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> 


Наивный подход 
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Наивный подход 
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Наивный подход 


Master link status: DOWN 


Cannot connect to master 


Что же делать? 


Голосуем! 


Решение принимается тремя голосами (большинство) 
Если предложили — принимай 

Можно поддержать только одно предложение 

Нельзя менять решение на полпути 


Все говорят правду 


Главное — не перепутать 


Чо Чо 
В 13:00 
Чо 
В 13:00 


В 13:00 


В 13:00 


Без разницы 
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Главное — не перепутать! 


^ Нумеруем голосования 
^ Начинаем с 1 
» Каждое голосование увеличиваем на 1 


) Наибольший номер побеждает 
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Apache Zookeeper 


ZXID (int32, int32) 


Integer overflow 


ZOOKEEPER-2789 
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- И АРАСНЕ eos», Dashboards ~ Projects ¥ Issues ¥ О Login 


ОЙ Zookeeper = ZOOKEEPER-2789 
KAS Reassign `ZXID ` for solving 32bit overflow problem 


49 


СО Issues Ñ Export v 
^D | 
22 Reports v Details v People 
$8 Components Type: [3 Bug Status: | OPEN | Assignee: Benedict Jin 
u. "—— T 
Priority: = Major Resolution: Unresolved Reporter: Benedict Jin 
Affects Version/s: 353 Fix Version/s: 3.8.0 Votes: B Vote for this issue 
t/s: 
шаа Mm Watchers: 9 Start watching this issue 
Labels: pull-request-available 
v Dates 
v Description 
22 | | | Created: 23/May/17 01:45 
If itis '1k/s' ops, then as long as 52732 / (86400 * 1000) \арргох 49.75 days ZXID will exhausted. But, if we l 
reassign the `ZXID` into 16bit for `epoch` and 48bit for `counter`, then the problem will not occur until after Updated: 14/Jan/21 18:10 
$Math.min(2^16 / 365, 2748 / (86400 * 1000 * 365)) \approx Math.min(179.6, 8925.5) = 179.6$ years. 
However, i thought the ZXID is `long` type, reading and writing the long type (and `double` type the same) in v Time Tracking 
JVM, is divided into high 32bit and low 32bit part of the operation, and because the "ZXID' variable is not Estimated: mu 168h 
modified with ‘volatile’ and is not boxed for the corresponding reference type ("Long / ` Double’), so it 
belongs to [non-atomic operation] (https://docs.oracle.com/javase/specs/jls/se8 /html/jls-17.html#jls-17.7). Remaining: mw 167h 40m 
Thus, if the lower 32 bits of the upper 32 bits are divided into the entire 32 bits of the ‘long’, there may be a 
Logged: 20m 
concurrent problem. 


v Issue Links 


Blocked 
О ZOOKEEPER-1277 servers stop serving when lower 32bits of zxid roll over бі RESOLVED 


is related to 
е ZOOKEEPER-2791 Quorum doesn't recover after zxid rollover 22 OPEN 
links to 


© GitHub Pull Request #262 
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Предложения на голосование 


2. В 13:00 2. В 14:30 
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Предложения на голосование 


2. В 13:00 


2. В 13:00 2. В 14:30 


2. В 14:30 
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Результат 


Попробуем еще раз! 
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Предложения на голосование 
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Предложения на голосование 


3. В 13:00 


3. Кофе 
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Предложения на голосование 


3. В 13:00 


3. B 13:00 


3. Кофе 


3. Кофе 


3/ 


Предложения на голосование 


3. B 13:00 3. B 13:00 


3. B 13:00 3. Кофе 


3. Кофе 


3. Кофе 
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Предложения на голосование 


1 — | "т $9) 
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Split-brain 


) 
) 


Мы взяли нового участника 


Не увеличили необходимое число голосов 


40 


Предложения на голосование 
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Предложения на голосование 


3. В 13:00 


3. B 14:30 
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Предложения на голосование 


3. В 13:00 


3. B 13:00 


3. B 14:30 


3. B 14:30 
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Предложения на голосование 


3. B 13:00 3.B 13:00 


3. B 13:00 


3. B 14:30 


3. B 14:30 
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Обед спасен! 


Рахоз 


Файловая система Еспо 


Публикация в АСМ Transactions 
on Computer Systems 


Paxos Made Simple 
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Рахоз 


Медленный 
Синхронный 
Сложный и непонятный 


Очень далек от практики 


Можно значительно ускорить! 
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Другой вариант 


Решаем, как бы нам вместе пообедать 
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Новые договоренности 


^ Решение принимает кто-то один — лидер 


^ Если нет лидера, можно предложить себя 
как кандидата 


^ Выбираем лидера тремя голосами (большинство) 


» У каждого один голос, решение менять нельзя 


^ Все говорят правду 
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Выборы 


Кандидаты 


Голосование 


Голосование 
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Голосование 


Голосование 


Голосование 


Победа 


59 


Победа 
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Решение 


Решение 
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Решение 
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Я все еще тут! 


64 


нап 


^ Подвержен тем же проблемам, что и Paxos 
) Быстрый 


> Достаточно понятный 
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Рахоз можно улучшить 


Multi-Paxos 


1 = } 


| ve ve) 


Multi-Paxos 


1 = } 


| ve ve) 


В чем разница? 


| Paxos 


» Не требует лидера 


» Но может работать быстрее, 
если его выбрать 


| Ван 


» Требует лидера 
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В чем разница? 


| Paxos 


» Не требует журнала 


> Но никто не запрещает его вести 


| Ван 


^ Требует журнал 
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В чем разница? 


| Paxos 


» Более консистентньи 


| Ван 


» Узел в кластере может отставать 
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В чем разница? 


| Paxos 


^ Доказуемо «сойдется» 


| Ван 


» Теоретически может 
не принять решение 
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В чем разница? 


| Paxos 


> Сложный 


^ Далек or реальности 


| Ван 


» Субьективно проще 


^ Ближе к практике 
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Быводы 


› Распределенный консенсус выглядит просто 
^ Сложен в реализации: все может пойти не так 


> Лучше взять готовую реализацию 
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Что еще почитать 


ВЕ 


Paxos Made Simple 
Part-Time Parlament 


Paxos Made Practial 


Paxos Made Live 


Raft — An Understandable Consensus Algorithm 
Визуализация работы Raft 

Список реализации Най 

Интересный старый Oar в Zookeeper 


» The Byzantine Generals Problem 
^ Practical Byzantine Fault Tolerance 


/5 


Уапдех Cloud 


Спасибо! 


Владимир Протасов 


Technical Manager 


5-2 prolog@yandex-team.ru 


t.me/ask_prolog_bot 


